El camp de la intel·ligència artificial està experimentant una pujada sense precedents de la innovació, però el discurs públic sovint es manté fixat en els grans models de llenguatge (LLM). i Les perspectives de LeCun desafien la saviesa convencional, enfatitzant un canvi cap a sistemes que realment entenen, raonen i interactuen amb el nostre complex món físic. El Bill Dally Yann LeCun Més enllà de les fronteres lingüístiques Yann LeCun reconeix obertament que és Ja no estic tan interessat en els LLM. . not so interested in LLMs anymore Mentre que continuen millorant al marge a través de més dades, computació i generació de dades sintètiques, LeCun els veu com una "modalitat senzilla de veure el raonament". Com entendre el món físic: com poden les màquines entendre els matisos de la física i la interacció del món real? Memòria persistent: Desenvolupar sistemes d'IA amb la capacitat de memòria a llarg termini i accessible. Raonament: Moure's més enllà de les formes actuals, sovint rudimentàries, de raonament en els LLM a mètodes més sofisticats i intuïtius. Planificació: Permet a la IA planificar seqüències d'accions per aconseguir objectius específics, similars als processos cognitius humans. LeCun suggereix que la comunitat tecnològica, tot i que actualment se centra en els LLM, probablement s'emocionarà amb aquests "documents acadèmics obscurs" en cinc anys. El repte del món real: per què els tokens cauen curt La limitació fonamental dels LLM actuals, segons LeCun, rau en el seu enfocament basat en tokens. Els tokens, que normalment representen un conjunt finit de possibilitats (al voltant de 100.000 per als LLM), són adequats per a dades discretes com el llenguatge. Els humans adquireixen "models del món" en els primers mesos de vida, permetent-nos comprendre la causa i l'efecte - per exemple, com empènyer una ampolla des de dalt podria girar-la, mentre que empènyer-la des del fons podria fer que es deslliuri. Els intents d'entrenar sistemes per entendre el món mitjançant la predicció de dades continues d'altes dimensions com el vídeo a nivell de píxels han fracassat en gran mesura. Aquests sistemes esgoten els seus recursos tractant d'inventar detalls imprevisibles, el que condueix a un "desaprofitament complet de recursos". Fins i tot les tècniques d'aprenentatge auto-supervisades que funcionen reconstruint imatges de versions corruptes no han funcionat així com les arquitectures alternatives. Això és perquè molts aspectes de la realitat són inherentment imprevisibles a un nivell granular, com l'aparença exacta de cada persona en una continuació de vídeo. Joint Embedding Predictive Architectures (JAPA): El futur dels models del món La resposta a aquest repte, argumenta LeCun, es troba en Joint Embedding Predictive Architectures (JAPA). A diferència dels models generatius que intenten reconstruir a nivell de píxels, JAPA se centra en l'aprenentatge de "representacions abstractes" de dades. How JAPA Works: Una peça d'entrada (per exemple, un tros de vídeo o una imatge) s'executa a través d'un codificador per produir una representació abstracta. Una versió continuada o transformada de la entrada també s'executa a través d'un codificador. El sistema, a continuació, intenta fer prediccions dins d'aquest "espai de representació" (espai latent), en lloc de l'espai d'entrada cru. Aquest enfocament evita el problema del col·lapse on els sistemes podrien ignorar les entrades i produir representacions constants i no informatives, un obstacle que va trigar anys a superar. Imagineu-vos un predictor que, en observar l'estat actual del món, pugui anticipar l'"estat següent del món donat que podria prendre una acció que m'imagino prendre". JAPA for Reasoning and Planning: LeCun contrasta fortament amb els actuals "sistemes de raonament agètic" que generen un gran nombre de seqüències de token i després utilitzen una segona xarxa neural per seleccionar la millor. Ell s'assembla a "escriure un programa sense saber com escriure un programa" - un mètode "completament sense esperança" per a qualsevol cosa més enllà de les seqüències curtes, ja que escala exponencialment amb la longitud. Un exemple pràctic del potencial de JAPA és el projecte VJA (Video Joint Embedding Predictive Architecture), actualment en desenvolupament a Meta. El sistema VJA, entrenat en segments de vídeo curts per predir representacions de vídeos complets a partir de versions masclades, està demostrant la capacitat de detectar si un vídeo és "físicament possible o no". Mitjançant la mesura de l'error de predicció, pot marcar esdeveniments "inusuals", com ara objectes que apareixen o desapareixen espontàniament, o desafiant la física. Això reflecteix com els nadons aprenen física intuïtiva: un nadó de 9 mesos està sorprès si un objecte sembla flotar, indicant una violació del seu model intern del món. El camí cap a la intel·ligència de màquines avançada (AMI) LeCun prefereix el terme Advanced Machine Intelligence (AMI) sobre Artificial General Intelligence (AGI), citant la naturalesa altament especialitzada de la intel·ligència humana. amb AI a nivell humà que pugui arribar en una dècada o més. amb AI a nivell humà que pugui arribar en una dècada o més. No obstant això, adverteix contra el patró històric d'excés d'optimisme en la IA, on cada nou paradigma és proclamat com el camí cap a la intel·ligència a nivell humà en una dècada. Els LLMs estan entrenats en grans quantitats de text (per exemple, 30 bilions de tokens, equivalents a 400.000 anys de lectura). Per contra, un nen de 4 anys processa una quantitat equivalent de dades a través de la visió en només 16.000 hores, demostrant l'immensa eficàcia de l'aprenentatge visual. La clau per desbloquejar AMI, segons LeCun, és descobrir la "bona recepta" per a l'entrenament d'arquitectures JAPA a escala. igual que va trigar el temps a descobrir la combinació correcta de trucs d'enginyeria, no linealitats i innovacions com ResNet (el paper més citat en la ciència durant l'última dècada) per entrenar efectivament les xarxes neuronals profundes i transformadors, es necessita un avanç similar per a JAPA. L’impacte de la IA: des de l’estalvi de vides a les eines de productivitat Malgrat l'enfocament en els paradigmes futurs, LeCun destaca l'enorme impacte positiu que ja té la IA: Ciència i Medicina: la IA està transformant el disseny de fàrmacs, el plegament de proteïnes i la comprensió dels mecanismes de la vida. En la imaginació mèdica, els sistemes d'aprenentatge profund pre-screen mamogrames per als tumors, i la IA redueix els temps d'escaneig de la ressonància magnètica en un factor de quatre recuperant imatges d'alta resolució de menys dades. Automoció: L'assistència al conductor i els sistemes automàtics de frenada d'emergència, ara obligatoris a Europa, redueixen les col·lisions en un 40%, salvant vides. Productivitat i creativitat: la IA no està substituint a les persones, sinó que serveix com a "eines de poder" que fan que les persones siguin més productives i creatives, ja sigui com a assistents de codificació, en la medicina o en els esforços artístics. La necessitat de "precisió i fiabilitat" en aplicacions com la conducció autònoma (on els errors poden ser mortals) fa que el campament i el desplegament de sistemes d'IA siguin "més difícils del que la majoria de la gent pensava".Això és on la IA sovint fracassa -no en la tècnica bàsica o les demostracions, sinó en la integració fiable en els sistemes existents. Pel que fa al "part fosc" de la IA, com ara els deepfakes i les notícies falses, LeCun expressa un optimisme sorprenent. L'experiència de Meta suggereix que, malgrat la disponibilitat dels LLM, no han vist un "gran augment en el contingut generatiu que es publica a les xarxes socials, o almenys no d'una manera nefasta". Ell narra l'episodi "Galactica", on el LLM de codi obert de Meta per a la literatura científica es va trobar amb "vitriol" i es va abaixar a causa de la por, només per a que el ChatGPT es celebri setmanes més tard. LeCun creu que la "contraposició contra l'ús indegut és només millor IA" - amb sistemes de sentit comú, capacitat de raonament, i la El paper indispensable de l'Open Source i la col·laboració global Un dels principis bàsics de la filosofia de LeCun és la necessitat absoluta de plataformes d'IA de codi obert. subratlla que "les bones idees provenen de la interacció de moltes persones i de l'intercanvi d'idees". El compromís de Meta amb el codi obert, exemplificat per PyTorch i LLaMA, està impulsat per la creença que fomenta un ecosistema pròsper de startups i permet al major nombre de persones intel·ligents contribuir a la construcció de funcionalitats essencials. Why Open Source AI is Crucial for the Future: Diversitat d'assistents d'IA: En un futur en què la IA mitiga gairebé totes les interaccions digitals (per exemple, ulleres intel·ligents), un sol grapat d'empreses no poden proporcionar la diversitat d'assistents necessaris. Formació distribuïda: cap entitat única recollirà totes les dades del món en tots els idiomes.El model futur implica models de fundació de codi obert entrenats de manera distribuïda, amb centres de dades que accedeixen a tot el món a subconjunts de dades per formar un "model de consens". Fine-tuning sobre dades propietàries: Els models de codi obert com LLaMA permeten a les empreses descarregar i ajustar-les en les seves pròpies dades propietàries sense haver de carregar-les, donant suport a aplicacions especialitzades verticals i models de negoci d'inici. LeCun destaca que les empreses els ingressos de les quals no estan exclusivament lligats als serveis d'IA (com el model de publicitat de Meta) tenen menys a perdre i més a guanyar de l'open-sourcing dels seus models, en contrast amb empreses com Google que podrien veure com una amenaça al seu negoci de cerca bàsic. Hardware: alimentant la pròxima revolució de la IA Mentre que les GPU han vist increïbles avenços (de 5.000 a 10.000 vegades l'augment de capacitat de Kepler a Blackwell), el cost computacional del raonament en l'espai abstracte significa "serem necessitar tota la competència que podem obtenir" en maquinari. LeCun és en gran mesura escèptic sobre el maquinari neuromòrfic, la computació òptica i la computació quàntica per a tasques generals de la IA en un futur pròxim. assenyala que la indústria dels semiconductors digitals es troba en un "mínim local profund" que les tecnologies alternatives s'enfronten a un repte monumental per aconseguir-ho. No obstant això, veu promesa en Processor-in-Memory (PIM) o en les tecnologies de processador i memòria analògic/digital per a escenaris específics de "computació d'avantguarda", com ara el processament visual de baixa potència en ulleres intel·ligents. Comprimir-lo abans d'enviar-lo a l'escorça visual, demostrant que el xuflatge de dades, no la computació en si, sovint consumeix la major quantitat d'energia. En el sensor El futur: un equip de persones virtuals superintel·ligents Finalment, LeCun envisiona un futur on els sistemes d'IA són "eines de poder" que augmenten les capacitats humanes, no les reemplacen.La nostra relació amb la futura IA serà una de comandament; serem el seu "boss", amb un "equip de persones virtuals superintel·ligents que treballen per a nosaltres".Aquest futur col·laboratiu, impulsat per la investigació oberta i les plataformes de codi obert, aprofitarà les contribucions de tothom arreu del món, portant a una variada gamma d'assistents d'IA que milloren la nostra vida diària. En essència, el futur de la IA no és una entitat monòlita, de caixa negra que apareix sobtadament, sinó que és un procés col·laboratiu, iteratiu, molt com la construcció d'una gran i intricada ciutat on cada constructor, arquitecte i enginyer contribueix la seva experiència única a un projecte compartit, que condueix a una metròpoli vibrant i diversa d'intel·ligència de màquines avançada.